从“秀”到“用”拐点将至。
当前,AI大模型掀起新一轮人工智能应用热潮。国内厂商纷纷加入 “百模大战”中,推出自家品牌的大模型产品。从百度的 “文心一言”、阿里巴巴的“通义千问”、科大讯飞的 “星火认知大模型”、京东的 “言犀产业大模型”、华为 的 “盘古大模型”等。此外多家企业已宣布将在下半年发布大模型产品,大模型 “诸神之战”正在来临。
据科技部新一代人工智能发展研究中心日前发布的 《中国人工智能大模型地图研究报告》显示,目前,中国和美国研发的大模型数量占全球总数的80%以上。其中,中国10亿参数规模以上的大模型已发布79个。然而,大模型是真正成熟了,还是仅仅处于 “秀肌肉”阶段?目前,绝大部分大模型面向通用场景,少数面向垂直行业,仅有部分模型开放给用户测试,甚至有不少模型并没有公布训练数据量、模型参数规模等信息。目前,业界也没有统一的大模型性能评测标准,无法对这些大模型的性能做出合理的量化评价。联通数科首席科学家廉士国认为,短期内国内发布了近百个大模型,说明门槛降低了。得益于以LLaMA模型为首的大模型开源生态快速发展,模型和训练方法逐步公开,数据集开源易获取,微调权重训练方法不需要从头开始做预训练,使得对算力的要求降低。然而,壁垒依然存在。已有几个测评组织分别对其中部分模型的性能做了评测,结果显示模型之间有差别,而GPT-4/ChatGPT几乎在所有榜单中排名榜首。显然,大模型技术还有不足,说明还需持续做技术革新。大模型还存在一些明显的问题:对于相似的提问不同的问法会得到差异很大的回答,解某些相对简单的数学题也会出现错误,在内容创作上可能会 “一本正经地说瞎话”,等等。这说明大模型的语义理解能力仍需提升、逻辑推理能力需要改进、“幻觉”问题还需解决,否则可能影响大模型大规模的推广应用。廉士国指出,可以让通用大模型学习使用其他工具插件,类似人类通过使用工具扩展自身能力。在“将要用大模型重构所有业务”的趋势下,尽早投入大模型技术研发,以掌握大模型开发和应用能力,避免错过规模化变现浪潮,的确宜早不宜晚。赛迪智库未来产业研究中心发文指出,应推动有条件的企业尽快将大模型应用于实际场景,如人形机器人、智能网联汽车、生物医药等领域,以应用为导向,为重点领域提升智能化水平。正如业内专家所说,大模型首先取得突破性技术革命,不管多粗糙,首先第一步先用起来,走进用户,然后再不断完善。虽然,大模型领域在现实商业应用中,远没有人们想象那样振奋人心。但有前瞻者认为,大模型最大的价值不在C端,而是在具体产业中的潜力。率先创造应用价值,并推动大模型健康发展的,会是产业大模型。所有大模型的最终归宿都将是实体产业的物理世界。大模型领域中,生于产业,长于产业的京东云旗下言犀人工智能,明显更倾向于聚焦产业大模型,整合过往产业实践和技术积累,预计今年将推出千亿级模型言犀产业大模型。在工业领域,讯飞星火助力羚羊工业互联网平台,推出工业大模型“羚机一动”,助力中小企业供需匹配。腾讯也于近日发布了依托腾讯云TI平台打造的行业大模型精选商店,为客户提供MaaS(Model-as-a-Service)一站式服务,助力客户构建专属大模型及智能应用。腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生在腾讯云发布会上表示,就模型而言,比起通用大模型,企业更需要针对具体行业的大模型。企业对提供的专业服务要求高且容错性低,因此使用的大模型必须具备可控、可追溯和可修正的特点,并经过反复充分的测试。企业所需要的是在实际场景中真正解决了某个问题,而不是在100个场景中解决了70%-80%的问题。产业场景是大模型最佳练兵场。京东云相关专家表示,大模型的训练虽然很昂贵,需要 “大算力、大数据、强算法”,但大模型的部署范围和门槛很低,是工业化的一个显著标志。传统的机器学习和人工智能模型随着数据和模型的扩大,边际效应却逐渐递减,主要因为泛化和拓展能力不强,带来的收益越来越小。而这次以ChatGPT为代表的预训练大模型,参数量到了千亿规模以后,能力上实现了质的飞跃,产生了让人惊艳和出乎意料的效果,边际效应呈递增状态,这种技术的底层逻辑预示着智能化时代的到来。京东云相关专家认为,发展产业大模型有三个条件。第一,看得懂,懂业务痛点;第二,摸得到,实际运营业务,接触应用场景,才会有精准的数据,进而 “喂给”大模型,发展出特定能力;第三,数据飞轮运转,形成反馈再优化的循环。这三点既是本质,又是限制。大模型是迄今为止人类最高智能的软件产品之一,有实力颠覆SaaS层现有生态。大模型制高点是强者之间的游戏,产业大模型与通用大模型的竞争优势来自于此。很多人对大模型无止境的算力、数据、参数量的增长,持悲观态度,担忧有可能形成新一轮的技术垄断。实际上,大模型会带来AI技术的普惠,而不是加剧技术鸿沟。中小企业势穷力尽也不能从零开始造出世界领先大模型,他们的诉求是 “用”。京东云相关专家表示,在这一点上,会有两个台阶。第一个台阶很难迈上去,踏步难度大。在这个台阶,通用大模型,通识能力强,异常困难,且所费不赀。当大模型具备了知识压缩、逻辑判断与推理等良好能力之后,下一个台阶的踏步高度就会降低。支撑门槛变低的技术原理是,大模型能力强了之后,下一步针对行业场景的 “微调”,对数据数量要求会变低,算力成本也降低。此时,产业受益之处就体现出来了,产业利润低洼地的企业,以及供应链上地位低的中小企业都有机会用上 “大模型”。如此一来,不仅不会加大数字和技术鸿沟,还会产生普惠价值。廉士国认为,如果说当前阶段,大模型通用能力的变现,考验的是企业在算力和算法上的积累;那么在下一阶段,大模型在千行百业场景中的变现,将考验企业在业务场景和数据积累上的禀赋。可以相信,未来各行各业的企业,除了采买基础设施层的公有云服务之外,大模型也将成为它们各自数字化标配。推荐阅读